设置 Spark/Flink 工程/作业
Spark 工程和作业的设置
Spark 版本
LakeSoul 目前支持 Spark 3.3 + Scala 2.12.
设置 Spark Shell (包括 pyspark shell 和 spark sql shell)
使用 spark-shell
、pyspark
或者 spark-sql
交互式查询, 需要添加 LakeSoul 的依赖和配置,有两种方法:
使用 --packages
传 Maven 仓库和包名
spark-shell --packages com.dmetasoul:lakesoul-spark:3.3-2.6.0
使用打包好的 LakeSoul 包
可以从 Releases 页面下载已经打包好的 LakeSoul Jar 包。
下载 jar 并传给 spark-submit
命令:
spark-submit --jars "lakesoul-spark-3.3-2.6.0.jar"
直接将 Jar 包放在 Spark 环境中
可以将 Jar 包下载后,放在 $SPARK_HOME/jars 中。
Jar 包可以从 Github Release 页面下载:https://github.com/lakesoul-io/LakeSoul/releases/download/v2.6.0/lakesoul-spark-3.3-2.6.0.jar
设置 Java/Scala 项目
增加以下 Maven 依赖项:
<dependency>
<groupId>com.dmetasoul</groupId>
<artifactId>lakesoul-spark</artifactId>
<version>3.3-2.6.0</version>
</dependency>